#오픈소스 LLM

변호사의 로컬 AI 법률 문서 작성기: V100 클러스터 구축기

한 변호사가 V100 12개와 RTX 3090 등 총 16개의 GPU를 활용해 법률 문서 초안을 자동 작성하는 로컬 AI 시스템을 완성했습니다. 실험 결과 V100 환경에서는 일반적인 Dense 모델보다 MoE(Mixture of Experts) 모델이 압도적인 처리 속도를 보여주어 시스템 전체를 MoE 중심으로 재구성했습니다. 여러 로컬 모델이 각자의 역할을 나누어 수행하는 오케스트레이터 구조를 통해 고수준의 법률 문서를 빠르고 정확하게 생성해 내는 것이 이 프로젝트의 핵심입니다.

로컬 AI 법률 AI 자동화 오픈소스 LLM

TechCrunch AI • 82일 전

IMP 8

중국 문샷 AI, 오픈소스 수요 폭발에 200억 달러 가치로 20억 달러 유치

중국의 대표적인 오픈소스 AI 스타트업 문샷 AI(Moonshot AI)가 약 20억 달러(약 2조 7천억 원)를 유치하며 기업가치 200억 달러를 달성했습니다. 이는 퍼포먼스 타협을 감수하더라도 저렴한 비용으로 AI를 사용하려는 시장의 오픈소스 모델 수요가 급증했기 때문으로 풀이됩니다. 이번 펀딩은 중국 AI 기업들이 자본 시장에서 고속 성장을 이어가고 있음을 보여주는 핵심 지표로 평가받습니다.

문샷 AI 오픈소스 LLM Kimi

The Decoder • 85일 전

IMP 7

아마존 세이지메이커, AI 에이전트 파인튜닝 지원

아마존 SageMaker AI에 자연어로 사용자의 요구를 파악해 모델 학습부터 배포까지 자동화하는 '에이전트 파인튜닝' 기능이 도입되었습니다. 개발자가 복잡한 과정 없이 텍스트로 사용 사례를 입력하면, 내장된 AI 에이전트가 데이터 준비, 학습, 코드 생성 등을 수행합니다. 라마, 큐원, 딥시크 등 주요 오픈소스 모델부터 아마존의 노바까지 폭넓게 지원하여 실무 개발자들의 진입 장벽과 작업 시간을 크게 줄여준다는 점에서 중요합니다.

AWS 세이지메이커 파인튜닝

r/LocalLLaMA • 88일 전

IMP 9

PFlash: RTX 3090에서 128K 기준 llama.cpp 대비 프리필 10배 빠름

오픈소스로 공개된 ‘PFlash’는 소형 드래프트 모델로 토큰 중요도를 평가해 중요한 구간만 처리하는 ‘추측적 프리필(Speculative Prefill)’ 기법을 적용했습니다. 그 결과, RTX 3090(24GB) 환경에서 128K 길이의 프롬프트 처리 시 기존 llama.cpp보다 첫 토큰 생성 시간(TTFT)을 약 10.4배 단축시켰습니다. C++/CUDA로만 작성되어 Python 기반 오버헤드 없이 24GB 메모리 내에서 추론 전체가 실행되는 것이 특징입니다.

추론 속도 최적화 llama.cpp 오픈소스 LLM

r/LocalLLaMA • 92일 전

IMP 7

2026년형 4B 파라미터 모델 벤치마크

한 Reddit 사용자가 최근 출시된 3~4B(십억 개 파라미터) 크기의 소형 오픈소스 AI 모델 5종을 대상으로 종합적인 능력을 테스트했습니다. 그 결과 엔비디아(NVIDIA)의 'Nemotron-3-Nano'가 막강한 추론 및 금융 계산 능력을 바탕으로 압도적인 1위를 차지했으며, 알리바바의 'Qwen 3.5'는 토큰 버짝 문제로 인해 최하위권을 기록했습니다. 이번 벤치마크는 각 개발사(IBM, MS, NVIDIA 등)의 모델들이 '범용'으로 마케팅되고 있음에도 불구하고, 실제로는 코딩이나 추론 등 특정 분야에 강하게 특화되어 있다는 사실을 보여줍니다.

로컬 AI 오픈소스 LLM 엔비디아 Nemotron

r/LocalLLaMA • 96일 전

IMP 9

단일 RTX 3090으로 85 TPS·12만5천 컨텍스트 구현

알리바바의 Qwen3.6-27B 모델이 출시된 지 하루 만에, 단일 소비자용 그래픽 카드(RTX 3090 24GB)에서 데이터센터급 추론 속도(85 TPS)와 12만 5천 토큰의 컨텍스트, 그리고 비전(Vision) 기능을 구현한 오픈소스 스택이 등장했습니다. 이는 기존 API 의존 없이도 GPT급 속도와 개인정보 보호, 무료 추론 비용을 모두 누릴 수 있게 되었음을 의미합니다. 저자는 vLLM의 버그 패치 4개와 최적화를 통해 이론적으로 불가능해 보이던 하드웨어 한계를 극복한 구체적 과정을 공유합니다.

로컬 추론 오픈소스 LLM vLLM

Hacker News • 102일 전

IMP 8

단 1.58비트로 최고 수준 지능 구현한 '테르나리 분산'

PrismML이 가중치를 단 3가지 값(-1, 0, +1)만 사용하는 1.58비트 언어 모델인 '테르나리 분산(Ternary Bonsai)'을 공개했습니다. 이 모델은 기존 16비트 모델 대비 약 9분의 1 수준의 작은 메모리 용량을 차지하면서도 동급 16비트 모델들을 능가하는 뛰어난 성능을 보여줍니다. 엣지 디바이스에서도 초고속 추론 속도와 높은 전력 효율을 발휘하여, 하드웨어 자원이 제한된 환경에서의 실용적인 AI 배포를 혁신할 것으로 평가받습니다.

경량화/양자화 온디바이스 AI 오픈소스 LLM

r/LocalLLaMA • 106일 전

IMP 6

샤오미 12 Pro를 24시간 AI 서버로 변신

샤오미 12 Pro 스마트폰을 안드로이드 UI를 제거한 헤드리스Headless 환경으로 세팅하여 24시간 구동되는 로컬 AI 서버로 개조한 사례입니다. 배터리 보호 및 발열 제어 자동화를 거친 후, Ollama를 통해 Gemma4 모델을 LAN 내에서 API 형태로 서빙하는 방식입니다. 이는 고성능 모바일 기기를 활용해 별도의 서버 장비 없이도 저전력 로컬 LLM 환경을 구축할 수 있다는 것을 보여줍니다.

로컬 AI 오픈소스 LLM 모바일 서버

r/LocalLLaMA • 110일 전

IMP 8

소규모 오픈소스 LLM, 앤스로픽 신형 보안 모델과 동일한 취약점 발견

AI 보안 스타트업 AISLE은 앤스로픽의 최신 보안 모델 'Mythos'가 발견한 제로데이 취약점들을 소규모 오픈소스 LLM으로 테스트한 결과, 훨씬 저렴한 모델들도 동일한 분석 결과를 도출할 수 있음을 입증했습니다. 이는 AI 보안 역량이 모델의 크기에 비례해 부드럽게 상승하는 것이 아니라, 보안 전문성이 시스템 내에 어떻게 구축되는지가 핵심 경쟁력임을 시사합니다. 결과적으로 고성능 폐쇄형 모델 하나가 모든 것을 해결하는 것이 아니라, 작업에 따라 최적화된 모델을 선택하는 유연한 파이프라인 구축이 중요해졌습니다.

사이버 보안 오픈소스 LLM 제로데이 취약점

The Decoder • 111일 전

IMP 8

지푸 AI GLM-5.1, 수백 번 반복하며 코딩 전략 스스로 수정

중국의 지푸 AI(Zhipu AI)가 복잡하고 장기적인 프로그래밍 작업에 특화된 오픈소스 모델 GLM-5.1을 공개했습니다. 이 모델은 작업 중 막히면 수백 번에 걸쳐 스스로 코드를 검토하고 전략을 근본적으로 수정하여 기존 최고 성능 모델들을 제치는 성능을 보여줍니다. 단일 프롬프트로 리눅스 데스크톱 환경을 구축하는 등 뛰어난 에이전트 기반 작업 능력을 증명했지만, 지식 및 추론 벤치마크에서는 여전히 개선할 점이 많음을 스스로 인정하고 있습니다.

지푸 AI GLM-5.1 자가 개선 코딩

MarkTechPost • 112일 전

IMP 9

Z.AI, 754B 에이전트 모델 GLM-5.1 발표

Z.AI가 복잡한 소프트웨어 엔지니어링 자동화에 최적화된 차세대 오픈웨이트 모델 GLM-5.1을 발표했습니다. 이 모델은 8시간 이상의 자율 작업 수행 및 수천 번의 도구 호출 상황에서도 오류 누적과 전략 표류를 최소화하는 독자적인 아키텍처를 자랑합니다. 특히 SWE-Bench Pro에서 GPT-5.4 등 경쟁 모델들을 제치고 58.4점의 최고 성능(SOTA)을 달성하며 코딩 에이전트 분야의 새로운 기준을 제시했습니다.

에이전트 AI 오픈소스 LLM 코딩 에이전트

r/LocalLLaMA • 117일 전

IMP 5

Gemma 4 모델도 훌륭하지만, Qwen의 완성도에 감탄하게 되는 이유

Reddit 사용자가 새로 출시된 Gemma 4 모델을 테스트해 보고 훌륭한 성능을 인정했습니다. 하지만 동시에 Qwen 팀이 이룬 높은 수준의 품질과 일반 가용 하드웨어에서도 구동 가능한 넓은 컨텍스트 윈도우(Context Window)의 가치를 더욱 깊이 체감하게 되었다고 평가했습니다. 이는 오픈소스 LLM 시장에서 소비자 하드웨어 최적화와 성능의 균형이 얼마나 중요한지를 보여주는 실무적 지표입니다.

Gemma 4 Qwen 오픈소스 LLM